SoSe2021

Folienübersicht

Statistische Modelle

Zur Erinnerung

Quiz - Überprüfe Deine Kenntnisse aus DS1

Modelle

  • sind eine simple Beschreibung einer komplexen Einheit (‘entity’) oder eines Prozesses.
  • leiten sich von einer Hypothese ab → eine Hypothese kann viele Modelle produzieren.
  • werden mit beobachteten Daten verglichen → dabei wird die Anpassungsgüte des Models an die Daten bewertet.

Bildquelle links: reality Baum von www.pixabay.com (CCO 1.0); rechts: stick man graph von J. Nielsen (masterthesis
“Conversion of Graphs to Polygonal Meshes”, Technical University Copenhagen), www.tchami.com

Ziel der statistischen Modellierung

  • Identifikation der wichtigsten erklärenden Variablen (Prädiktor, Einflusswert, Wirkungsvariable; ‘predictor’).
  • Bestimmung der Parameter-Werte, die erklärende (‘predictor’; X) und erklärte (‘response’, Y) Variablen verbindet.
  • Wir suchen nach einem Model, dass
    • die größte Menge der Variabilität in den Daten erklärt.
    • die kleinstmögliche Menge an nicht erklärbarer Variabilität produziert.
    • am besten zu den Daten passt.
  • Beide X und Y Variablen können quantitativ und/oder kategorial sein.

Maximum Likelihood - Größte Wahrscheinlichkeit

  • Was genau meinen wir, wenn wir sagen, dass die Parameterwerte die “beste Anpassung des Modells an die Daten” bieten sollten?
  • Die Konvention, die wir annehmen, ist, dass unsere Techniken zu unverzerrten, varianzminimierenden Schätzern führen sollten.
  • Wir definieren “beste” im Sinne der maximalen Wahrscheinlichkeit:
    • Gegeben die Daten,
    • und angesichts unserer Wahl des Modells,
    • welche Werte der Parameter dieses Modells
    • machen die beobachteten Daten am wahrscheinlichsten?

→ Wir beurteilen das Modell auf der Basis, wie wahrscheinlich die Daten wären, wenn das Modell korrekt wäre.

Übersicht klassischer linearer Regressionsverfahren

Abhängig vom Skalenniveau bzw. Datentyp der Variablen

Antwortvariable Y Erklärende Variable X Modell R Funktion
Kontinuierlich Kontinuierlich Lineare Regression lm()
Kontinuierlich Kategorial Varianzanalyse (ANOVA) aov()
Kontinuierlich Kontinuierlich & Kategorial Kovarianzanalyse (ANCOVA) lm()
Binärdaten (nominal) Kontinuierlich & Kategorial Logistische Regression (binary logistic analysis) glm()
Proportionen Kontinuierlich & Kategorial Logistische Regression glm()
Häufigkeiten Kontinuierlich & Kategorial Log-lineare Modelle (z.B. Poisson Regression) glm()

Es gibt darüberhinaus noch viel mehr Verfahren…

Lineare statistische Modelle



\[Y = constant + coefficient * X_{1} + coefficient2 * X_{1} ... + error\]

Y: erklärte Variable (‘response’)

\(X_{1}, X_{2}\): erklärende Variablen (‘predictor’)

constant: Mittelwert oder Schnittpunkt der Y-Achse (Wert, wenn alle x-Werte gleich null sind)

coefficient: Regressionssteigung oder Behandlungseffekte

error: Teil von Y, der nicht erklärt bzw. vorhergesagt wird durch X

Was sind alles lineare Modelle?

Der Begriff linear bezieht sich auf die lineare Kombination von Parametern, nicht die Form der Verteilung, d.h. Parameter dürfen nicht im Exponenten auftreten oder durch/mit einem anderen Parameter dividiert/multipliziert werden.

Dies sind alles lineare Modelle:

\[Y_{i} = \alpha + \beta_{1}*X_{i} + \beta_{2}*X_{i}^2 + \epsilon_{i}\] \[Y_{i} = \alpha + \beta_{1}*(X_{i}*W_{i}) + \epsilon_{i}\] \[Y_{i} = \alpha + \beta_{1}*log(X_{i}) + \epsilon_{i}\] \[Y_{i} = \alpha + \beta_{1}*exp(X_{i}) + \epsilon_{i}\] \[Y_{i} = \alpha + \beta_{1}*sin(X_{i}) + \epsilon_{i}\]

Warum benutzen wir lineare Modelle?

  • die Methode der linearen Regression ist schon sehr lange etabliert
  • Vorteile:
    • einfach zu interpretieren (Koeffizienten),
    • einfach zu begreifen (Interaktionen, mehrere X)
    • Koeffizienten können weiter benutzt werden, z.B. in nummerischen Modellen
    • einfach zu erweitern: Link-Funktionen, fixe und zufällige Effekte, Korrelationsstrukturen,… → GLM, GLMM
  • ABER:
    • Dynamik ist nicht immer linear → Transformationen helfen nicht immer oder führen zu Informationsverlust

Modelltypen

Prozess der Modellauswahl und -vereinfachung

Verschiedene Verfahren

  1. All subsets regression (alle Kombinationen)
  2. Forward Selection (vom Nullmodell ausgehend)
  3. Backward Selection (vom komplexesten Modell startend)

Verschiedene Kriterien

  • p-Werte der geschätzten Koeffizienten
  • Bestimmtheitsmaß \(R^2\)
  • Akaike Informationskriterium (AIC) oder Modifikationen davon
  • Signifikanztests

Prinzip der Einfachheit (‘Principle of parsimony’ oder ‘Occam‘s Razor’):

  • So wenige Parameter wie möglich.
  • Lineare Modelle sollten gegenüber nicht-linearen Modellen bevorzugt werden.
  • Modelle sollten so weit reduziert werden, bis sie minimal adäquat sind;
  • Einfache Erklärungen sollten komplexen Erklärungen vorgezogen werden.
  • Experimente, die auf wenigen Annahmen beruhen, sollten denen vorgezogen werden, die auf vielen beruhen;

p

Modellprüfung

  • Wie gut beschreibt das Modell die Daten?
  • Gibt es systematische Trends in der Anpassungsgüte?
    • Nimmt die Anpassungsgüte mit der Anzahl der Beobachtungen zu?
    • Ist die Anpassungsgüte eine Funktion einer oder mehrerer erklärender Variablen?

Untersuchung der Residuen

Es sollten die Residuen routinemäßig geplottet werden gegen

  • die gefitteten Werte (Prüfung der Varianzheterogenität)
  • jede erklärende Variable (Prüfung auf Muster);
  • Standard-normalverteilte Werte (Prüfung auf Normalität der Daten);

Zusammenfassung der statistischen Modellierung

Die Schritte bei der statistischen Analyse von Daten sind immer die gleichen und sollten immer in der folgenden Reihenfolge durchgeführt werden. Hier ein Beispiel für die ‘backward selection’-Methode:

  1. Dateninspektion (Plots und tabellarische Zusammenfassungen, Identifizierung von Fehlern und Ausreißern).
  2. Modellspezifikation (Auswahl eines geeigneten Modells aus vielen Möglichkeiten);
  3. Sicherstellen, dass es keine Pseudoreplikation gibt, oder Spezifizierung geeigneter zufälliger Effekte;
  4. Anpassen eines maximalen Modells mit einer geeigneten Fehlerstruktur;
  5. Modellvereinfachung (durch Streichung aus einem komplexen Ausgangsmodell);
  6. Modellvalidierung (unter Verwendung von Diagnoseplots, Einfluss-Tests usw.);
  7. Wiederholung der Schritte 2 bis 6 so oft wie nötig.

Datenexploration

  • Fehlen Werte (missing values)?
  • Gibt es Ausreißer (outlier)?
  • War der Beprobungsaufwand (sampling effort) ungefähr gleich für alle Beobachtungen und Variablen?
  • Wie sind die Datenpunkte verteilt (distribution)?
    • Wo sind sie zentriert (centered)? Wie sind sie gestreut (spread)?
    • Sind die Variablen normal verteilt oder bimodal, schief (skewed)?
  • Gibt es Unterschiede in der Verteilung zwischen Gruppen (group differences)?
  • Gibt es Beziehungen zwischen Variablen (relationships)? Sind diese linear?
  • Müssen wir eine Transformation durchführen?
  • Sind die Annahmen (assumptions) der ausgewählten statistischen Datenanalyse erfüllt?

Lineare Modelle in R

Formeln in R

Nützliche R Funktionen

  • summary() → gibt die Parameterschätzungen und Standardfehler aus lm Objekten und ANOVA-Tabellen aus aov Objekten zurück (eigentliche Funktionen: summary.lm() und summary.aov())
  • plot() → erstellt Diagnostikdiagramme zur Modellprüfung (residuals against fitted values, normality checks, influence tests, etc.)
  • anova() → nützliche Funktion, um verschiedene Modelle zu vergleichen und ANOVA-Tabellen aus lm Objekten zu erstellen.
  • update() → wird verwendet, um die letzte Modellanpassung zu modifizieren; dies spart sowohl Tipparbeit als auch Rechenzeit.
  • coef() → gibt die Koeffizienten (geschätzte Parameter) aus dem Modell zurück.
  • fitted() → gibt die angepassten Werte zurück, die vom Modell für die Werte der erklärenden Variablen vorhergesagt werden
  • resid() → gibt die Residuen (die Differenzen zwischen gemessenen und vorhergesagten Werten von y) zurück.
  • predict() → verwendet Informationen aus dem angepassten Modell, um eine Glättungsfunktion für die Darstellung einer Linie im Streudiagramm zu erstellen. Der Funktion kann ein dataframe übergeben (Argument newdata) mit Sequenzen von Werten aller X Vaiablen, die im Modell sind.

Fragen?